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摘要 : 【 目的】 基于 网 络 产 品评 论 信息 构建 消费 者 的 情感 波动 分 析 模 型 。[ 方法 】 该 分 析 模 型 以 文本 挖掘 技术 理 


论 为 基础 , 运用 产品 评论 挖掘 技术 和 情感 分 析 技 术 , 在 情感 分 析 的 同时 充分 考虑 不 同类 型 连词 对 句子 情感 倾向 
性 的 影响 ,并 采用 相应 的 权 值 计 算 方法 。[ 结果 ] 从 京东 和 中 关 村 在 线 抓 取 某 款 手机 从 2013 年 11 月 到 2015 年 1 
月 这 段 时 间 内 产品 评论 信息 并 进行 分 析 , 验证 了 该 模型 的 有 效 性 。[ 局 限 ] 在 分 析 消费 者 情感 波动 主要 影响 因素 
方面 ,该 分 析 模 型 主要 考虑 相 邻 时 间 段 内 产品 特征 词 个 数 的 变化 以 及 产品 特征 词 在 评论 信息 中 出 现 次 数 的 变化 
这 两 个 维度 ， 其 他 维度 并 未 涉及 。[ 结论 】 该 模型 有 效 地 分 析 了 消费 者 在 一 段 时 间 内 的 情感 波动 趋势 ， 以 及 产生 


情感 波动 的 因素 , 能够 为 企业 决策 提供 一 定 的 参考 。 
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1 引 言 


随 着 互联 网 的 不 断 发 展 和 深入 人 们 的 生活 , 互联 
网 思维 逐渐 渗透 到 生活 的 方方面面 ， 越 来 越 多 的 人 们 
开始 借助 网 络 来 表达 他 们 对 某 件 事物 的 观点 和 情感 态 
度 。 特 别 是 随 着 电子 商务 的 兴起 , 在 互联 网 上 购买 商 
品 对 大 多 数 用 户 来 说 变 得 不 那么 陌生 , 用 户 开始 在 网 
站 、 论 坛 、 讨 论 组 、 微 博 、 微 信 等 平台 发 表 他 们 对 某 
产品 的 功能 、 性 能 和 服务 等 方面 的 态度 和 意见 ， 在 这 
些 用 户 评论 中 蕴含 着 可 供 企 业 做 出 决策 的 重要 信息 ， 
然而 面 对 众 多 的 网 络 评论 信息 ,很 难 准 确 地 从 中 获 
得 所 需要 的 信息 ,所 以 需要 运用 技术 手段 来 解决 这 
些 问 题 。 在 目前 产品 评论 挖掘 的 研究 中 ， 基 本 上 都 是 
利用 文本 挖掘 、 信 息 检 索 、 信 息 过 滤 和 自然 语言 处 理 
等 技术 。 通 过 这 种 方式 可 以 在 较 短 时 间 内 获得 有 价值 
的 信息 。 


Xu 等 中 将 文本 挖掘 技术 运用 到 企业 的 竞争 情报 
中 ,通过 构建 模型 来 抽取 竞争 产品 之 间 的 关系 。 
Rodrigues 等 中 提出 一 种 方法 ， 基 于 SentiHealth 癌症 患 
者 在 社交 网 络 上 的 文本 信息 来 分 析 其 心理 状况 , 同时 
自动 分 析 癌 症 患 者 的 社会 岗位 。Salehan 等 9 提出 一 种 
情感 挖掘 的 大 数据 分 析 方 法 以 分 析 消 费 者 在 线 评论 信 
息 对 消费 者 购买 产品 的 影响 。Deng 等 外 认为 虚假 餐馆 
评论 误导 消费 者 的 选择 , 提出 一 种 基于 情感 分 析 的 算 
法 来 检测 网 上 餐馆 虚假 评论 。Wallace 等 中 基于 fLDA 
模型 按 用 户 关心 的 各 个 方面 抽取 医生 在 线 评 论 进 行情 
感 分 类 。 翟 东升 等 将 文本 挖掘 技术 运用 到 产品 的 竞 
争 优势 分 析 上 , 通过 计算 两 种 竞争 产品 所 关注 的 产品 
特征 和 产品 的 极 性 值 ， 发 现 竞 争 对 手 的 优势 及 自身 需 
要 改进 的 地 方 。 施 国良 等 1 把 文本 挖掘 技术 运用 到 
对 同一 种 商品 在 不 同 购物 网 站 的 一 致 性 研究 上 面 。 
王 伟 等 外 则 基于 文本 挖掘 技术 研究 在 线 评论 信息 对 用 
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识 模块 化 机 理 研 究 ”( 项 目 编号 : 71671097) 的 研究 成 果 之 一 。 
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户 购买 意愿 的 影响 , 通过 构建 模型 分 析 产 品 特征 评价 
与 用 户 购买 意愿 的 关系 从 而 识别 出 重要 的 产品 特征 。 
吴 丽 华 等 外 则 利用 文本 挖掘 技术 实现 IT 产品 特征 和 
相关 情感 倾向 的 挖掘 发 现 。 田 雪 移 5 根据 产品 评论 信 
息 设 计 一 种 算法 来 获取 企业 的 竞争 情报 信息 。 吴 丽 云 
等 上 基于 文本 挖掘 技术 ， 以 大 众 点 评 网 为 研究 对 象 ， 
根据 评论 内 容 研究 消费 者 的 行为 。 从 以 上 研究 可 以 看 
出 ， 大 多 数学 者 在 进行 产品 评论 挖掘 研究 时 只 是 从 不 
同 的 角度 分 析 问 题 , 在 这 些 研究 中 只 分 析 了 消费 者 所 
关注 的 产品 特征 和 对 所 关注 的 产品 特征 的 情感 倾 性 向 
分 析 , 并 没有 从 整体 层面 考虑 消费 者 在 一 段 时 间 内 的 
情感 波动 趋势 。 还 有 一 些 学 者 如 : 黄 卫 东 等 ("提出 一 
种 基于 概率 潜在 语义 分 析 的 网 络 与 情话 题 情感 分 析 方 
法 , 分 析 了 不 同时 间 段 内 网 络 与 情话 题 子 话题 随时 间 
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同时 找 出 产生 情感 波动 的 因素 ， 帮 助 企 业 掌握 消费 者 
对 产品 的 情感 状态 趋势 , 辅助 企业 做 出 决策 。 

本 文 将 产品 评论 挖掘 技术 和 情感 分 析 技术 应 用 
于 消费 者 对 产品 的 情感 波动 分 析 领 域 , 构建 消费 者 对 
产品 的 情感 波动 分 析 模 型 。 该 模型 不 仅 分 析 了 消费 者 
所 关注 的 产品 特征 以 及 对 产品 特征 评价 的 情感 倾向 ， 
还 分 析 了 在 一 段 时 间 内 消费 者 对 产品 的 情感 波动 趋势 
以 及 引起 消费 者 情感 产生 波动 的 因素 。 


2 ”研究 模型 的 构建 


网 络 上 消费 者 对 产品 的 评论 一 般 都 包含 消费 者 使 
用 产品 后 内 心 的 真实 想法 , 反映 出 他 们 内 心 的 情感 状 
态 。 许 多 企业 已 在 互联 网 上 开辟 了 专门 的 评论 专区 、 
论坛 、 社 区 等 供 消费 者 表达 自己 的 想法 , 企业 则 可 以 


演化 过 程 。 倪 瑜 泽 等 中 提出 一 种 基于 用 户 评论 的 潜在 
演化 需求 发 现 方法 , 该 方法 有 效 地 辅助 需求 分 析 师 进 
行 演化 需求 的 抽取 。 何 天 翔 等 "使 用 DTM 模型 对 微 
博 数据 进行 时 间 分 片 , 然后 进行 情感 演化 分 析 从 而 找 
到 与 情 变化 的 时 间 点 。 李 超 雄 等 中 提出 一 种 动态 主题 
情感 混合 模型 ,该 模型 相 比 其 他 模型 具有 更 高 的 情感 
分 类 准确 率 并 且 可 以 进行 微 博 主 题 情感 演化 分 析 。 尺 
管 这 些 学 者 在 整体 层面 对 网 络 信 息 进行 了 分 析 , 但 只 
是 进行 了 情感 演化 分 析 和 评论 演化 分 析 , 并 未 进一步 
挖掘 什么 因素 导致 消费 者 的 情感 发 生变 化 。 所 以 本 文 
正 是 运用 评论 挖掘 等 技术 , 构建 消费 者 情感 波动 分 析 
模型 ， 分 析 客 户 在 茶 段 时 间 内 对 产品 的 情感 波动 情况 ， 


了 解 消费 者 对 产品 的 看 法 等 , 但 是 企业 只 是 了 解 消费 
者 关注 的 产品 特征 和 消费 者 对 产品 某 些 特征 的 情感 倾 
向 等 , 并 没有 从 整体 层面 关注 消费 者 的 情感 波动 情况 
以 及 进一步 了 解 影响 消费 者 情感 波动 的 因素 。 企 业 可 
以 根据 情感 波动 趋势 图 及 波动 产生 的 因素 做 出 相应 的 
应 对 措施 ,同时 还 可 以 根据 情感 波动 趋势 图 结合 自身 
的 销售 数据 趋势 图 做 对 比 ， 找 出 内 在 联系 供 企业 做 参 
考 。 所 以 本 文 从 整体 层面 考虑 消费 者 的 情感 波动 情况 ， 


构建 情感 波动 分 析 模 型 ,如 图 1 所 示 。 根 据 产 品评 论 
挖掘 的 一 般 步 又, 情感 波动 分 析 模 型 可 分 为 4 个 层面 : 
数据 抓 取 层 、 数 据 清理 层 、 产 品评 论 挖掘 层 、 情 感 波 
动 分 析 层 。 
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图 1 情感 波动 分 析 模 型 
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(1) 情感 波动 分 析 模 型 从 底层 的 数据 抓 取 层 开始 ， 
首先 运用 网 络 怜 虫 朴 取 产品 的 评论 信息 , 产品 的 评论 
言 息 包括 评论 的 时 间 和 评论 的 内 容 , 把 产品 评论 信息 
存放 于 Excel 表格 中 并 且 按 时 间 顺 序 排列 。 

(2) 数据 清理 层 用 R 语言 编写 程序 对 这 些 评 论 信 
息 进行 数据 清理 、 分 词 、 词 性 标注 和 停 用 词 的 删除 。 

(3) 产品 评论 挖掘 阶段 ， 主 要 是 对 产品 特征 词 
的 提取 、 极 性 词 的 提取 、 产 品评 价 库 的 构造 、 情 感 
词典 的 构造 、 产 品 特征 极 性 强度 的 计算 和 整 条 评论 
言 息 的 极 性 计算 。 为 了 能 够 更 加 全 面 地 分 析 消 费 者 
的 情感 状态 ,在 考虑 程度 副词 和 否定 词 对 评价 短语 
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的 情感 倾向 性 影响 后 ,也 将 连词 对 评价 语句 的 情感 
倾向 性 影响 考虑 进来 ， 同 时 给 出 相应 评价 短语 的 权 
值 计算 方法 。 

(4) 情感 波动 分 析 层 , 利用 提出 的 情感 波动 分 析 
方法 对 整个 时 间 段 内 消费 者 对 产品 的 情感 波动 情况 进 
行 分 析 。 


3 消费 者 情感 波动 分 析 模 型 具体 研究 过 程 


消费 者 情感 波动 分 析 模 型 具体 研究 过 程 包括 : 数 
据 的 抓 取 和 预 处 理 、 产 品评 论 控 掘 过程 、 情 感 波动 分 
析 过 程 。 具体 流程 如 图 2 所 示 : 
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图 2 


3.1 数据 的 抓 取 和 预 处 理 

针对 本 文 所 需要 的 数据 ,编写 网 络 爬 虫 程序 怜 取 
产品 评论 信息 , 构建 产品 评论 语料库 。 具 体 包括 : 评论 
的 时 间 和 评论 的 内 容 。 然 而 , 通过 网 络 爬 虫 采集 到 的 
评论 信息 其 中 含有 大 量 与 用 户 观点 态度 无 关 的 信息 ， 
这 些 信 息 最 终 会 影响 产品 评论 挖掘 的 结果 ,所 以 首先 
需要 对 网 络 朴 虫 采集 到 的 信息 进行 处 理 。 处 理 的 过 程 
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情感 波动 分 析 过 程 流 程 图 


包含 三 个 方面 : 数据 的 清理 、 分 词 、 删 除 停 用 词 。 
(1) 数据 清理 
在 消费 者 对 产品 的 评论 信息 中 出 现 的 消费 者 喜欢 
用 的 口语 化 词语 、 网 络 新 闻 、 图 片 和 音频 等 非 文 本 信 
息 , 还 有 一 些 与 产品 特征 和 用 户 观 点 没有 关系 的 评论 
语句 等 ， 这 些 信息 可 以 视 为 噪声 , 可 以 把 这 些 评 论语 
名 删除, 最 后 提取 对 产品 有 意义 的 用 户 评论 。 


(2) 分 词 处 理 

经 过 数据 清理 后 的 评论 语句 暂时 还 无 法 直接 应 用 
情感 分 析 的 方法 进行 处 理 , 需要 将 整个 没有 结构 的 文 
本 转化 为 结构 化 的 数据 形式 ， 而 最 常用 的 方法 就 是 将 
文本 表示 为 词汇 的 形式 。 实 现 这 一 步 需要 首先 进行 分 
词 ， 分 词 的 好 坏 直接 决定 了 计算 机 对 文本 语义 分 析 的 
准确 性 。 本 文 借助 R 软件 中 的 分 词 工具 Rwordseg 完 
成 中 文 分 词 。Rwordseg 使 用 rJava 调用 Java 分 词 工具 
Ansj, Ansj 是 基于 中 国 科学 院 计算 技术 研究 所 ICTCALS 
中 文 分 词 算法 的 开源 工具 , 采用 隐 马 尔 科 夫 模型 (Hidden 
Markov Model, HMM)， 具 有 很 好 的 分 词 效果 09。 

(3) 词性 标注 

在 进行 分 词 的 时 候 已 经 对 每 个 词语 进行 了 词性 标 
注 , 通过 词性 标注 可 以 判定 每 个 词 的 语法 范畴 ,是 属 
于 观点 词 、 特 征 词 、 还 是 程度 副词 ,从 而 提取 出 产品 
特征 和 识别 用 户 观点 态度 。 本 文 词性 标注 采用 统计 的 
方法 ,基于 隐 马 尔 科 夫 模型 ， 对 文本 进行 分 词 得 到 词 
序列 {Wi，W,…}, 词性 序列 {ti, bt,…} 为 隐 售 着 的 状 
态 序列 , 然后 基于 Viterbi 算法 求解 统计 词性 转移 矩阵 
[ai 和 词性 到 词语 的 输出 矩阵 , 求解 的 过 程 实际 上 是 
求 可 能 性 最 大 的 状态 序列 1。 

(4) 删除 停 用 词 及 无 用 词 

在 实际 应 用 中 , 文本 中 很 多 词 是 与 内 容 无 关 的 ， 比 
如 “ 呢 ”、“ 呵 ”“ 他 们 ”等 ,因此 可 将 这 些 与 内 容 无 关 的 
词 (比如 代词 、 介 词 、 拟 声 词 等 ) 从 文本 中 去 除 , 然后 通 
过 对 文档 中 词 频 的 统计 , 将 文本 中 出 现 频率 过 高 或 过 
低 的 并 且 对 于 内 容 没有 太 多 贡献 的 词语 从 文本 中 去 除 ， 
这 样 会 提高 产品 特征 分 析 的 效果 和 效率 。 本 文通 过 R 
语言 编写 程序 读 取 停 用 词 表 (1 893 个 ) 对 文档 进行 处 理 。 
3.2 ”产品 评论 挖掘 的 过 程 

经 过 数据 的 抓 取 和 预 处 理 后 ,进入 产品 的 评论 挖 
掘 阶段 。 产 品 的 评论 挖掘 过 程 主要 包括 产品 特征 的 提 
取 、 极 性 强度 的 确定 、 极 性 强度 词典 的 构造 和 评价 短 
语 的 情感 倾向 性 计算 。 

(1) 产品 特征 的 提取 

在 进行 产品 评论 挖掘 的 过 程 中 , 首先 需要 对 产品 
特征 词 进行 提取 ， 从 用 户 评论 中 抽取 出 用 户 所 关心 的 
产品 特征 ， 比 如 手机 的 产品 特征 包括 : 屏幕 、 电 池 、 配 
置 等 。 经 过 词性 标注 后 提取 全 部 名 词 ,通过 筛选 去 除 
和 产品 特征 无 关 的 词汇 , 最 后 得 到 用 户 关心 的 产品 特 
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征集 合 。 

(2) 极 性 强度 的 确定 

极 性 词 是 人 们 用 来 表达 自己 主观 感受 的 观点 词 ， 
有 喜 、 怒 、 衣 、 乐 等 。 当 人 们 对 某 一 事物 的 好 坏 做 出 
评价 时 , 往往 通过 使 用 这 类 词 来 表达 自己 的 观点 态 
度 。 极 性 词 一 般 包括 形容 词 、 动 词 和 部 分 的 名 词 。 首 
先 在 2007 年 知 网 发 布 的 “情感 分 析 用 词语 集 (beta 版 )” 
中 挑选 与 待 分 析 产 品 紧 密 相关 的 词汇 构成 用 户 极 性 
词典 ( 引 。 这 些 词汇 有 代表 鹿 义 的 ,也 有 代表 贬义 的 ， 
并 且 这 些 词汇 是 最 基本 的 包含 强烈 讲 贬 色彩 的 词语 ， 
是 大 量 语 料 中 总 结 出 来 的 最 常用 的 极 性 词语 。 通 过 采用 
Tumey 等 (9 的 SO-PMI 算法 计算 新 词 与 这 些 基 准 词 在 
语料库 中 的 共 现 概率 ,确定 新 闻 的 褒贬 义 倾向 及 强度 。 

(3) 极 性 强度 词典 的 构造 

人 程度 副词 

程度 副词 会 影响 情感 词 的 强 弱 ， 当 程度 副词 改变 的 时 
候 , 情感 词 的 极 性 也 发 生 改 变 , 所 以 在 对 和 句子 进行 极 性 分 析 
的 时 候 ， 要 将 程度 副词 影响 程度 考虑 在 内 。 程 度 副词 可 分 为 
相对 程度 副词 和 绝对 程度 副词 。 相 对 程度 副词 和 绝对 程度 副 
词 又 可 分 为 极 量 、 高 量 、 中 量 和 低 量 4 种 程度 ,不 同等 级 的 
程度 副词 赋予 不 同 的 权重 FP, 分 别 为 : 极 量 (1.5)、 高 量 (1.2)、 
中 量 (0.9)、 低 量 (0.6)。 常用 的 相对 程度 副词 和 绝对 程度 副词 ， 
如 表 1 所 示 : 


表 1 程度 副词 表 
程度 相对 程度 副词 绝对 程度 副词 
太 、 极 、 极 为 、 极 其 、 极 度 、 
过 、 过 于 、 过 分 、 分 外 、 万 分 
更 、 更 加 、 更 为 、 越 、 很 、 挺 、 怪 、 老 、 非 常 、 特 别 、 
已 越发 、 备 加 、 愈 、 傅 加、 相当 、 十 分 、 好 、 颇 、 颇 为 、 
~” 越 加 、 格 外 、 益 发 、 异常 、 深 为 、 蛮 、 够 、 多 、 多 
愈益 么 、 特 、 尤 其 、 无 比 、 尤 为 


极 量 最 、 最 为 、 无 比 


中 量 较 、 比 较 、 较 比 、 还 。 不 太 、 不 很 、 不 其 
,， 稍 、 稍 稍 、 稍 微 、 稍 许 、，。， 
低 量 略 、 略 微 、 多 少 有 点 、 有 些 

加 连词 表 


在 对 评论 语句 进行 极 性 分 析 的 过 程 中 ,往往 会 遇 到 很 
多 的 连词 ， 如 并 列 连词 、 转 折 连 词 、 递 进 连 词 、 让 步 连词 等 。 
在 这 些 连词 当中 ,最 多 的 即 是 并 列 连词 、 转 折 连 词 、 递 进 连 
词 ， 它 们 会 影响 整个 句子 情感 表达 的 侧重 。 笔 者 总 结 出 常用 
的 并 列 连词 、 转 折 连 词 和 递 进 连 词 ， 如 表 2 所 示 。 

1) 如 果 评 论 句 中 出 现 转折 连词 则 在 连词 前 后 的 语义 
极 性 是 相反 的 。 

2) 如 果 评 论 句 中 出 现 并 列 连词 ， 则 该 连词 之 前 和 之 后 
的 语义 极 性 是 相同 的 。 
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表 2 连词 表 
类 型 连词 
转折 却 、 虽 然 、 但 是 、 然 而、 而 、 偏 偏 、 只 是 、 不 过 、 至 于 、 
“” 致 、 不 料 、 岂 知 


递 进 不但、 不仅、 而且、 何况、 并 、 
并 列 和 、 跟 、 与 、 既 、 同 、 及 、 而 、 况 、 况 且 、 人 何况、 乃至 


3) 如 果 评 论 句 中 出 现 表示 递 进 的 关系 连词 ， 则 该 词 之 
后 的 语义 极 性 比 之 前 的 语义 极 性 更 强 。 

@ 否 定 词 

否定 词 在 对 计算 评价 短语 的 情感 倾向 性 权 值 时 有 很 大 
的 影响 ， 如 不 、 不 是 等 。 这 些 否定 词 在 修饰 情感 词 时 起 到 反 
向 的 作用 ,但 是 一 般 遇 到 否定 词 修饰 情感 词 的 时 候 并 不 是 
完全 起 反 向 的 作用 ,只 是 对 情感 词 的 情感 起 到 一 个 弱化 的 
作用 。 所 以 在 有 否定 词 修饰 的 情感 词 时 ， 在 情感 词 的 前 面 乘 
以 -0.7。 经 过 筛选 得 到 最 常用 的 否定 词 ， 如 表 3 所 示 : 


表 3 否定 词 表 


否定 词 
不 非 别 从 没 未 缺 
不 怎么 不 觉得 毫 不 算 不 上 不 会 无 法 木 有 
说 不 上 ”并 未 不 可 能 没有 不 太 尚未 难以 
不 是 ”不必 ” 决 不 从 未 不 能 ”不足 ” 欠 受 


(4) 评价 短语 的 情感 倾向 性 权 值 计算 

评价 短语 的 情感 倾向 性 权 值 计算 的 准确 度 对 于 判 
断 整 个 句子 的 情感 倾向 性 有 重要 的 影响 ， 所 以 本 文 在 
魏 慧 玲 吕 给 出 的 5 种 情况 下 又 增加 一 种 新 的 情况 ,同时 
给 出 计算 权 值 的 方法 ,这样 可 以 更 进一步 提高 评价 短语 
情感 倾向 性 权 值 计算 的 精确 度 ， 对 产品 评论 挖掘 效果 
会 有 很 大 的 提升 。 这 6 种 情况 分 别 为 : 情感 词 ; 否定 词 
+ 情感 词 ; 程度 副词 + 情感 词 ; 程度 副词 + 否定 词 + 情 感 
词 ; 否定 词 + 程度 副词 + 情感 词 ; 情感 词 + 连词 + 情感 词 。 

对 于 以 上 6 种 情况 , 给 出 对 应 权 值 的 计算 方法 ， 
前 5 种 分 别 是 : 直接 计算 情感 词 的 权 值 ; 情感 词 权 值 x 
(-0.7); 程度 副词 权 值 x 情感 词 权 值 ，(-0.7)x 程 度 副 词 
权 值 x 情感 词 权 值 ，(-0.7)x 程 度 副词 权 值 x 情感 词 权 
值 。 最 后 一 种 比较 复杂 , 可 以 进一步 细 分 : 

如 果 是 转折 连词 : 按 转折 连词 后 面 的 情感 词 的 权 值 


进行 计算 。 
@) 如 果 是 并 列 连词 : 其 中 一 个 情感 词 的 权 值 为 a 另 一 


个 权 值 为 b。 那 么 评价 短语 的 情感 倾向 性 权 值 为 c= 。 


@ 如 果 是 递 进 连 词 : 其 中 一 个 情感 词 的 权 值 为 a, 另 一 
个 权 值 为 b。 那 么 评价 短语 的 情感 倾向 性 权 值 为 
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a+b 
c= x 


1.3 5 


最 后 运用 公式 (1) 确 定 整 个 句子 的 情感 倾向 : 


m n 
DP + oP 
Score =: (1) 


其 中 , Pu 代表 特征 词 的 极 性 权 值 为 正 的 集合 ，P。 
代表 特征 词 的 极 性 权 值 为 负 的 集合 , m 代表 一 个 句子 
中 极 性 值 为 正 的 特征 词 的 个 数 , n 代表 极 性 值 为 负 的 
寺 征 词 的 个 数 。 按 照 给 出 的 6 种 权 值 的 计算 方法 计算 
Pm 和 P 的 权 值 。 

计算 完成 一 个 句子 的 权 值 后 需 判 定 一 个 句子 的 极 
性 为 正 还 是 为 负 ， 判别 条 件 如 下 : 


cl Score>0 


class=4c, Score=0 (2) 


c Score<0 


其 中 , cl 表示 极 性 为 正 , c, 表 示 极 性 为 中 性 , c; 表 示 
极 性 为 负 。 
3.3 ”网 络 产品 的 情感 波动 分 析 过 程 与 方法 

企业 之 间 的 竞争 越 来 越 激 烈 ， 而 用 户 在 企业 的 疯 
争 过 程 中 处 于 核心 地 位 。 谁 能 获得 更 多 的 用 户 , 谁 就 能 
在 企业 的 竞争 过 程 中 处 于 有 利 地 位 。 如 何 使 自己 的 产品 
更 吸引 用 户 , 是 企业 值得 思考 的 问题 。 在 吸引 用 户 基 础 
之 上 需要 了 解 用 户 对 产品 的 心理 状况 ,因此 掌握 用 户 
对 产品 的 情感 波动 情况 , 找 出 波 动 的 主要 因素 并 能 孵 
做 出 相应 的 决策 以 吸引 用 户 进 而 提升 销售 业绩 ,对 提 
升 企 业 的 竞争 力 具 有 重要 的 意义 ,企业 平时 关注 最 多 
的 就 是 通过 消费 者 对 产品 的 评价 信息 来 了 解 产品 在 哪 
些 地 方 做 得 不 好 或 者 哪些 地 方 做 得 还 可 以 。 本 文 根 据 单 
晓 红 等 ”| 提出 的 9 种 语法 模式 ， 筛 选 所 需要 的 句子 。 要 
筛选 掉 的 句子 有 两 种 : 不 包含 特征 词 集合 里 面 的 特征 
词 ; 不 符合 这 9 种 语法 模式 的 句子 。 最 后 找 出 消费 者 情 
感 倾向 极 性 值 为 负 和 情感 倾向 为 中 性 的 句子 作 分 析 。 对 
消费 者 的 情感 波动 分 析 主 要 从 以 下 方面 进行 : 制作 情 
感 波 动 趋势 图 ; 分 析 影 响 情感 波动 的 主要 因素 ; 基于 社 
会 网 络 对 引起 消费 者 情感 波动 因素 不 同 维度 的 分 析 。 

(1) 制作 情感 波动 趋势 图 

根据 筛选 后 的 产品 评论 语句 集合 ,计算 每 个 句子 
的 情感 倾向 ， 以 每 月 为 单位 将 其 中 的 情感 倾向 性 权 值 
为 负 的 、 情 感 倾向 性 权 值 为 中 性 的 句子 抽取 出 来 , 分 
别 计算 它们 所 占 句子 总 数 的 百分比 。 计 算 公式 如 下 。 


p= 二 x100% (3) 


其 中 , n 代表 每 个 月 的 句子 的 总 数 , q 代表 情感 倾 
向 性 权 值 为 负 的 或 者 为 中 性 的 句子 总 数 。 

(2) 分 析 影 响 情感 波动 的 主要 因素 

分 析 情 感 波动 的 主要 因素 主要 是 分 析 负 面 情感 波 
动 , 首先 根据 情感 波动 趋势 图 的 走势 , 分 别 把 上 升 段 、 
下 降 段 、 平 稳 段 的 几 个 月 做 一 个 集合 , 分 析 引 起 情感 
波动 主要 因素 的 方法 是 分 别 抽 取 在 情感 波动 趋势 图 上 
升 段 、 下 降 段 、 平 稳 段 这 几 个 时 间 段 内 消费 者 对 产品 
特征 负面 评论 的 特征 词 , 分 别 为 : 上 升 段 负面 特征 词 
合 ={al, az, 3…an}, 下 降 段 负面 特征 词 集合 b={fb,， 
bz, b3…bn}, 平稳 段 负 面 特 证 词 集合 c={fcl cs, c3 cn 
这 些 特征 词 集合 是 影响 消费 者 情感 波动 的 体现 , 然后 
对 比 集合 a, b,c 中 产品 特征 词 的 个 数 是 否 变化 很 大 ， 
当 集合 中 产品 特征 词 的 个 数 变 化 很 大 的 时 候 ， 可 以 考 
虑 是 否 主要 是 因为 产品 特征 词 个 数 的 变化 导致 负面 评 
论 比例 的 上 升 ， 从 而 导致 情感 发 生 波动 , 同时 找 出 增 
加 的 产品 特征 词 ,这些 增加 的 产品 特征 词 是 影响 消费 
者 情感 波动 的 主要 因素 。 当 相 邻 时 间 段 产品 特征 词 个 
数 变化 不 大 的 时 候 ， 分 别 对 比 相 邻 时 间 段 内 相同 产品 
特征 词 在 评论 信息 中 出 现 的 次 数 是 否 发 生 很 大 变化 ， 
这 些 产品 特征 词 在 评论 信息 中 次 数 的 增加 导致 负面 评论 
比例 的 上 升 ， 从 而 导致 消费 者 情感 波动 发 生变 化 。 

(3) 基于 社会 网 络 对 引起 消费 者 情感 波动 因素 不 
同 维度 的 分 析 

经 过 对 情感 波动 主要 因素 的 分 析 , 生产 厂家 很 容 
易 知 道 消费 者 对 产品 的 哪些 特征 不 满意 , 但 是 生产 | 
家 并 不 知道 消费 者 从 哪些 维度 去 评价 产品 特征 的 好 与 
不 好 , 所 以 本 文 运 用 关键 词 共 现 分 析 方 法 ,其 原理 是 
对 一 组 词 两 两 统计 其 在 同一 篇 文献 中 出 现 的 次 数 ， 以 
此 为 基础 对 这 些 词 进行 分 层 聚 类 , 通过 构建 关键 词 共 
现 和 矩阵 ,可 以 表明 哪 两 个 词 之 间 具 有 一 定 的 内 在 联系 ， 
同时 基于 Ucinet 对 共 现 矩阵 进行 可 视 化 分 析 ， 直 观 展 
现 出 关键 词 之 间 的 联系 。 


4 分 析 模 型 的 实例 验证 


4.1 网 络 信息 采集 
某 款 手机 的 评论 数据 来 自 于 中 关 村 在 线 (http:/ 
www.zol.com.cn) 和 京东 商城 (http:/www.jd.com), 采集 
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时 间 从 2013 年 11 月 1 日 到 2015 年 1 月 31 日 , 共 采 
集 到 14 890 条 信息 。 采 集 的 评论 数据 包括 评论 的 时 间 、 
评论 的 内 容 , 根据 此 信息 构建 产品 评论 语料库 。 示 例 
如 表 4 所 示 : 


表 4 产品 评论 语料库 


时 间 评论 内 容 


2013-11-1 屏幕 分 辩 率 高 细 膨 , 机 身 薄 ， 系统 流畅 性 能 彪 悍 。 
2013-11-1 配置 高 、 屏 幕 大 。 

2013-11-1 高 分 辨 率 ,， 音 质 很 好 ， 外 放 很 棒 。 

2013-11-2 ”外观 很 漂亮 , 电池 还 行 。 


4.2 ”数据 预 处 理 

经 过 数据 的 清理 后 , 共计 有 12 223 条 信息 。 利 用 
R 软件 编写 程序 对 这 些 评论 语句 进行 分 词 、 词 性 标注 、 
删除 停 用 词 。 
4.3 产品 评论 挖掘 

(1) 产品 特征 的 提取 

首先 进行 特征 词 提 取 , 用 R 语言 编写 代码 提取 所 
有 的 名 词 , 再 人 工 筛选 出 与 所 关注 的 产品 无 关 的 名 词 
将 其 剔除 掉 ， 并 合并 同 义 特 征 词 ， 如 价格 ={ 报 价 、 价 
钱 、 价 位 、 价 格 } 等 。 最 终 得 到 产品 特征 词 的 集合 F={ 屏 
幕 、 游 戏 、 电 池 、 系 统 、 外 观 、 配 置 、 性 能 、 内 存 、 
音质 、 价 格 、 摄 像 头 、 处 理 器 、 铃 声 、 人 硬件 、 音 乐 、 
闪光 灯 、 亮 度 、 充 电器 、 听 简 、 触 摸 屏 、 耳 机 、 相 机 、 
手感 }。 

(2) 评论 观点 极 性 及 强度 判断 

用 户 极 性 词典 构造 

利用 2007 年 知 网 发 布 的 “情感 分 析 用 词语 集 (beta 版 ) 
中 的 中 文正 面 情感 词 、 负 面 情感 词 、 正 面 评价 语 、 负 面 评价 
语 4 个 文件 中 选择 与 手机 相关 的 词汇 构成 用 户 极 性 词典 。 其 
中 选择 10 对 基准 词语 {( 清 晰 ， 模糊 )、( 流 畅 ， 卡 )、( 好 ， 坏 )、 
( 没 用 ,实用 )、( 强 大 , 低级 )、( 漂 亮 , 难看 )、( 便 宜 ， 昂贵 )、 
(大 ， 小 )、( 精 细 ， 粗 糙 )、( 丰 富 ， 稀 少 )}。 

@@ 极 性 强度 词典 的 构造 

表 1 至 表 3 列 出 来 的 程度 副词 、 连 词 、 否 定 词 , 这些 即 
为 构造 的 极 性 强度 词典 。 
4.4 产品 情感 波动 分 析 

(1) 绘制 产品 特征 词 词 云 

运用 R 语言 编程 绘制 产品 的 特征 词 词 云 从 词 云 
可 以 看 出 消费 者 大 致 关注 的 产品 特征 , 字体 大 的 表示 
消费 者 关注 度 高 , 字体 小 的 则 表示 消费 者 关注 度 低 ， 
如 图 3 所 示 。 
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图 3 产品 特征 词 词 云 
(2) 制作 情感 波动 分 析 图 
根据 情感 波动 分 析 方 法 , 绘制 消费 者 中 性 情感 波 


i “x 


25% 
20% 
15% 


15% 16% 


14% 
10% 
5% 
0% 
NS NS 


六 


50% 
40% 
30% 
20% 
10% 

0% 


(3) 情感 波动 主要 因素 分 析 

根据 负面 情感 波动 分 析 图 ,分 析 不 同时 间 段 内 产 
生 这 些 波动 的 主要 因素 以 及 这 些 因素 所 占 的 比例 , 结 
果 如 图 6 所 示 。 

从 图 6 可 以 看 出 在 2013 年 11 月 -2014 年 1 月 这 
段 时 间 内 顾客 的 情感 波动 主要 体现 在 游戏 、 电 池 、 屏 
幕 、 声 音 、 系 统 、 外 观 、 摄 像 头 、 信 号 和 音频 。 在 2014 
年 2 月 -2014 年 4 月 这 段 时 间 内 顾客 的 情感 波动 主要 
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0, 
30% 32%31.25%30.00%*45%9 7g806 32% 


动 趋势 图 和 负面 情感 波动 趋势 图 , 分 别 如 图 4 和 图 5 
所 示 。 

从 图 4 可 以 看 出 消费 者 的 中 性 评论 比例 基本 维持 
在 一 个 相对 不 高 的 水 平 , 最 高 水 平 在 23% 左 右 。 除 个 
别 几 个 月 的 中 性 评论 比例 在 15% 左 右 , 其 他 月 份 都 在 
20% 左 右 。 从 整体 来 看 中 性 情感 波动 不 大 。 

由 图 $ 可 以 看 出 , 从 2013 年 11 月 -2014 年 1 月 消 
费 者 的 负面 情绪 比例 趋 于 上 升 的 趋势 , 2014 年 2 月 
-2014 年 4 月 消费 者 的 负面 情绪 比例 趋 于 平稳 的 趋势 ， 
2014 年 5 月 -2014 年 10 月 消费 者 的 负面 情绪 比例 上 升 
很 明显 , 2014 年 11 月 -2015 年 1 月 消费 者 的 负面 情绪 
比例 趋 于 下 降 , 但 总 体 上 看 消费 者 的 负面 情感 还 是 趋 
于 上 升 趋势 。 
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、 配 置 、 耳 机 、 摄 像 
头 、 外 观 、 性 能 、 系 统 、 音 量 、 手 感 、 功 能、 音质 。 
在 2014 年 5 月 -2014 年 10 月 这 段 时 间 内 顾客 的 情感 
波动 主要 体现 在 游戏 、 0 言 号 、 电 池 、 内 存 、 系 
统 、 速 度 、 声 音 、 音 乐 、 音 质 、 摄 像 头 、 外 观 、 闪 光 
灯 、 功能、 硬件、 充电 器 、 页 和 性 能 和 声音 。 在 2014 
年 11 月 -2015 年 1 月 这 段 时 间 内 顾客 的 情感 波动 主要 
体现 在 系统 、 信 和 号、 屏幕 、 硬 件 、 电 池 、 游 戏 和 内 存 。 


体现 在 游戏 、 电 池 、 屏 幕 、 信 和 号 
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图 6 情感 波动 因素 分 析 图 


从 图 5 中 可 以 看 出 , 在 2014 年 2 月 -2014 年 4 月 
这 段 时 间 内 消费 者 的 情感 波动 相对 平稳 , 但 从 2014 年 
5 月 -2014 年 10 月 这 段 时 间 内 消费 者 的 负面 情感 比例 
不 断 上 升 。 通 过 对 比 2014 年 2 月 -2014 年 4 月 和 2014 
年 5 月 -2014 年 10 月 这 两 个 时 间 有 段 内 的 饼 图 可 知 ， 消 
费 者 在 这 段 时 间 内 对 产品 特征 抱怨 的 数量 在 不 断 增 
加 , 从 2014 年 2 月 -2014 年 4 月 期 间 的 14 个 特征 到 
2014 年 5 月 -2014 年 10 月 期 间 的 19 个 特征 , 增加 的 
特征 即 是 消费 者 情感 波动 产生 的 主要 因素 。 作 为 生产 
厂商 在 发 现 消费 者 负面 情感 比例 有 不 断 上 升 的 趋势 
时 ， 就 应 该 作出 相应 的 销售 策略 和 售后 服务 。 


日 = 
时 er 
国 分 站 一 一 


> 
> 


在 不 同 的 时 间 段 内 消费 者 所 关注 的 产品 的 特征 是 
不 同 的 , 但 总 体 可 以 看 出 在 这 4 个 时 间 段 内 顾客 所 关 
注 的 产品 特征 主要 集中 在 游戏 、 屏 幕 、 信 和 号、 电池 、 
系统 这 几 个 方面 ,这 几 个 方面 在 4 个 时 间 段 内 所 占 的 
比例 一 直 相对 较 高 。 对 于 手机 厂商 来 说 在 对 下 一 代 产 
品 进行 设计 时 可 以 根据 消费 者 对 这 些 产品 特征 的 关注 
情况 进行 针对 性 的 改进 。 

为 进一步 分 析 消 费 者 对 情感 波动 因素 不 同 维度 的 
评价 , 通过 构建 共 词 矩阵 ,运用 社会 网 络 分 析 工 具 
Ucinet 对 共 现 矩阵 进行 可 视 化 分 析 , 由 于 网 络 图 过 大 ， 
因此 只 展示 其 中 一 部 分 , 如 图 7 所 示 : 


信号 厉害 
7 


图 7 共 词 矩阵 可 视 化 分 析 
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通过 图 7 可 以 看 出 屏幕 这 个 产品 特征 词语 和 失 
灵 、 发 烧 、 手 感 等 一 些 词语 相关 联 ， 还 有 游戏 和 反应 、 
流畅 等 一 些 词语 相关 联 , 通过 网 络 图 还 可 以 看 出 和 其 
他 一 些 产 品 特征 词 相关 联 的 词语 。 通 过 共 词 矩阵 的 可 
视 化 分 析 , 生产 厂家 很 容易 看 出 消费 者 对 产品 特征 哪 
些 维度 的 评价 , 进一步 为 生产 厂家 做 出 决策 提供 参考 。 


5S 结 语 


本 文 基于 产品 评论 信息 构建 消费 者 情感 波动 分 析 
模型 ， 将 产品 评论 挖掘 技术 和 情感 分 析 技术 应 用 于 顾 
客 对 产品 的 情感 波动 分 析 中 , 并 以 某 手 机 为 例 进行 
实证 研究 。 研 究 结果 表明 , 本 文 构建 的 模型 能 够 有 效 
地 分 析 消 费 者 对 产品 的 情感 波动 情况 以 及 产生 情感 波 
动 的 主要 原因 , 相 比 其 他 学 者 所 关注 的 维度 , 该 模型 
更 加 宽泛 、 准 确 地 找 出 消费 者 的 主要 关注 点 ， 同 时 该 
研究 结果 与 人 们 购买 手机 的 观念 具有 一 致 性 ,对 企业 
做 出 相应 的 决策 具有 重要 的 现实 意义 。 今 后 研究 的 重 
点 主要 是 更 精确 地 提取 出 产品 的 特征 词 , 在 计算 情感 
词 的 极 性 值 算法 上 进一步 改进 ， 提 高 计算 情感 词 极 性 
值 的 准确 度 , 同时 考虑 其 他 维度 信息 对 消费 者 情感 波 
动产 生 的 影响 。 
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Using Product Reviews to Analyze Sentiment Fluctuation of Consumer 


Lin Yuanyuan Zhan Hongfei Yu Junhe LiChangjiang Zhang Fan 
(The Faculty of Mechanical Engineering and Mechanics, Ningbo University, Ningbo 315211, China) 


Abstract: [Objective] This paper establishes a model to analyze the sentiment fluctuation of consumers with online 
product reviews. [Methods] We constructed the model with product review mining and sentiment analysis techniques. 
And also examined the influence of conjunctions to sentence sentimental tendentiousness and then calculated their 
weights. [Results] The proposed model effectively analysed online reviews of one mobile phone posted on Jingdong 
and Zhongguancun Online from November 2013 to January 2015. [Limitations] Only included the total number and 
frequency of product feature keywords from reviews posted in neighboring time slots. [Conclusions] The proposed 
model could effectively analyze the developing trends and reasons of consumer sentiment fluctuation over a period of 
time, which provides valuable information to enterprise decision making. 
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